强化学习 (RL) 近年来已成为一个日益活跃的研究领域。尽管有许多算法可以让代理有效地解决任务,但它们往往忽略了与当前任务相关的先前经验可能存在的可能性。对于许多实际应用而言,代理从头学习如何解决任务可能不切实际,因为这通常是一个计算量很大的过程;然而,在实践中可以利用先前的经验使这些问题变得易于处理。在本文中,我们提出了一个通过学习可重复使用的选项来利用现有经验的框架。我们表明,在代理学习了解决少量问题的策略后,我们能够使用从这些策略生成的轨迹来学习可重复使用的选项,从而使代理能够快速学习如何解决新的和相关的问题。
![arXiv:2001.01577v1 [cs.AI] 2020 年 1 月 6 日PDF文件第1页](/bimg/9/9411a4384e6e5eaee2cb7a993f5fc5b3a072cdcd.webp)
![arXiv:2001.01577v1 [cs.AI] 2020 年 1 月 6 日PDF文件第2页](/bimg/e/efb52f82674cec709f3387d29940e60fe875a60d.webp)
![arXiv:2001.01577v1 [cs.AI] 2020 年 1 月 6 日PDF文件第3页](/bimg/3/3c91c5ee84351e4798141590aae677af08d16b42.webp)
![arXiv:2001.01577v1 [cs.AI] 2020 年 1 月 6 日PDF文件第4页](/bimg/d/dd9cff20a29ef237d6566af1fe4bcf745aa726ec.webp)
![arXiv:2001.01577v1 [cs.AI] 2020 年 1 月 6 日PDF文件第5页](/bimg/5/56e2b75d2fd3855940ab6430388c27a6194f2d02.webp)
